基于Google Earth的世界屋脊生态地理区GlobeLand30 (2010)验证点数据

王正兴1*,刘  1Win Naing Tun2

1. 中国科学院地理科学与资源研究所,资源环境信息系统国家重点实验室,北京 100101
2. Resource and Environment Myanmar Ltd., Yangon 11201, Myanmar

  要:GlobeLand30 (2010)是第一个30 m空间分辨率的全球土地覆盖数据库,由中国国家基础地理信息中心领衔开发完成。为了使用户更好地使用该数据库,同时也为了未来提高数据开发质量,2016年,GEO组织全球相关科学家对GlobeLand30 (2010)数据进行了数据质量验证。在世界屋脊生态地理区400万平方公里区域内,采用景观指数法(LSI),选择了801个验证点,包括:耕地24个、森林127个、草地331个、灌木地116个、湿地2个、水体10个、人造地表1个、裸地171个、冰川和永久积雪19个。验证点上土地覆盖的判读分3步:(1)把验证点转化为30 m ´30 m的正方形;(2)把文件转化为Google Earth格式(.kmz);(3)以2010年为基准,利用Google Earth时间序列遥感影像,结合判读10要素进行人工判读,得到判读结果。该数据集包括验证点的点文件和多边形文件。两个文件的属性都包括6个字段:前3个字段(来自抽样阶段)包括SID(样点序号)、LCType(分类代码)和LCName(分类名称)。后3个字段(来自判读阶段)包括CONF(判读可靠性,1表示最好,唯一分类;2表示较好,有两个可能分类;3表示差,不能用);采用Class_1(可能的分类1);和Class_2(当CONF=2时,可能的分类2),在801个样点中,725个样点的判读可靠性属于1级和2级,占91.51%;按照1级和2级验证点的验证结果,GlobeLand30 (2010)分类精度为83.86%。如果只使用Class_1验证点, GlobeLand30 (2010)分类精度71.72%。数据集存储为16个文件,.shp.kmz两种格式,数据量550 KB(压缩为3个文件,141 KB)。

关键词:土地覆盖,GlobeLand302010),世界屋脊生态地理区,验证样点,数据精度评估,Google Earth

DOI: 10.3974/geodp.2019.03.06

 

1  前言

为了辅助全球尺度的科学研究与决策,自1990年初以来,国际土地覆盖界先后开发了4套全球1 km土地覆盖产品。这些产品各自采用相似的原始数据、统一的分类系统和分类方法,在某种程度上解决了国别尺度上的不一致问题。但这些产品空间1 km分辨率远大于主要人类活动所直接影响的尺度(~30 m)。因为某些分类实际上是多类别的混合,导致土地覆盖产品的精度难以验证,某些检测出的变化难以解释。由于这4种全球1 km土地覆盖数据库的验证精度只有66.9%-78.3%,严重阻碍了土地覆盖数据的使用[1−5]。在2000年代中后期,欧洲宇航局把全球土地覆盖数据库的空间分辨率由1 km提高到300 m,但是其分类精度依然只有67.5%-73.1%距实际需求还有差距[6−8]

2008USGS免费开放全球Landsat数据后[9],全球土地覆盖产品研究由300 m跃升到30 m尺度。除了全球30 m森林[10]等单项数据库外,更重要的是全要素的全球土地覆盖数据库,其中包括本文验证的全球土地覆盖数据库:Globeland30Globeland30 数据库开发由中国国家基础地理信息中心组织,以30 m分辨率遥感数据为基本数据源,采用全球10类土地覆盖分类系统,采用“像元-对象-知识”三层次(Pixel–Object –KnowledgePOK)逐步细化分类算法[11−12],数据库的代表时间为2000年和2010年。2014年由中国政府捐献给联合国供全球免费共享[13],得到全球用户的应用和研究[14−15]

作为首个30 m尺度的全球土地覆盖产品,Globeland30尽管在方法上作了改进,但难免出现预想不到问题。其实对遥感土地覆盖产品可靠性的疑问一直存在[16]。为了进一步改进产品,国家基础地理信息中心在2014年筹划第三方全球验证,并在2015-2016年之间开展了数次验证培训与技术交流。验证的组织方式是依托国际对地观测组织(GEO)征集感兴趣的成员完成熟悉地区的验证工作。验证技术方案分两个层面:一种是“全球精度评估”,一种是“分区精度评估”。后者由4个地区组成,本文“世界屋脊地区”是其中之一。

验证本应是土地覆盖产品开发的组成部分,但是数据稀缺时代无暇顾及数据质量。随着各种土地覆盖数据的出现,对数据质量提出了更高的要求,这也包括验证数据的质量。为了促进验证数据的广泛应用,“基于Google Earth的世界屋脊生态地理区Globeland30 (2010)验证点数据集[17]已经正式出版。本文介绍验证数据集生成方法,并重点关注两个问题:(1)在世界屋脊这一人迹罕至的地区,作为主要参考数据的GoogleEarth历史影像在多大程度上可以满足Globeland302010)的验证需求;(2)以Google Earth有效验证点为基础,Globeland302010)的精度。

2  数据集元数据简介

基于Google Earth的世界屋脊区GlobeLand30 (2010)产品验证点数据[17]的元数据如表1

3  验证数据开发方法

土地覆盖数据库分类精度验证一般包括验证点抽样、验证点判读、和分类精度评估三部分[19]。其中,验证点抽样设计由验证项目组统一完成,实际抽样需要根据本地区的复杂性选择置信水平以决定抽样多少。因此本文重点介绍验证点判读和分类精度评估。

3.1  研究地区以及验证点抽样

“世界屋脊区”,是以青藏高原为核心的高原山地区,具体范围采用文献[20]提供的边界。根据该界线数据集,本区面积为4,000,947 km2,其中海拔高度4000 m以上的面积占53.75%。这种广大的面积、巨大的相对高差造成了土地覆盖类型的多样性,为GlobeLand30的全球验证提供了广泛的代表性。

验证点的抽样方法采用项目组推荐的“基于景观形状指数的地表覆盖检验样本自适应抽样方法”[21],具体操作在项目组验证平台[22]完成。考虑到待验证地区土地覆盖复杂性,抽样时选取了95%的置信水平。在该水平下,抽取了801个验证点,其空间分布如图1,在各个类别之间的分布如表2。从图1可见,在高原面以上广大地区,抽样密度相对较小,而在南部边缘区,地面异质性强,抽样密度大。

说明: 说明: t-1

1  世界屋脊区基于景观指数的验证点空间分布

 

1  基于Google Earth的世界屋脊区GlobeLand30 (2010)验证数据集元数据简表

 

 

数据集名称

基于Google Earth的世界屋脊生态地理区GlobeLand30 (2010)验证点数据

数据集短名

ValPlotROTWGlobeLand30(2010)

作者信息

王正兴 L-5255-2016,中国科学院地理科学与资源研究所,wangzx@igsnrr.ac.cn

  L-3684-2016,中国科学院地理科学与资源研究所,lchuang@igsnrr.ac.cn

Win Naing Tun, Resource and Environment Myanmar, winnaingtun@enviromyanmar.net

地理区域

世界屋脊地区。

经纬度范围: 23°11'59.47"N-40°1'8.67"N61°29'27.44"E-105°43'28.33"E

数据年代

2010

空间分辨率

30 m

数据格式

.shp.kmz

数据量

550 KB(压缩后141 KB

数据集组成

验证点空间位置与判读结果,压缩后包括3个文件(1个数据集,3种表达形式):

Sample_LSI_ROTW_Point.kmz:“点”格式(point

Sample_LSI_ROTW_Square.kmz:以“点”为中心,边长为30m的正方形格式(Polygon

ValPlotROTWGlobeLand30(2010).rar:以上两个文件对应shapefile的压缩格式

基金项目

中华人民共和国科学技术部(2016YFA0600201

出版与共享服务平台

全球变化科学研究数据出版系统 http://www.geodoi.ac.cn

地址

北京市朝阳区大屯路甲11100101,中国科学院地理科学与资源研究所

数据共享政策

全球变化科学研究数据出版系统的“数据”包括元数据(中英文)、实体数据(中英文)和通过《全球变化数据学报》(中英文)发表的数据论文。其共享政策如下:(1)“数据”以最便利的方式通过互联网系统免费向全社会开放,用户免费浏览、免费下载;(2)最终用户使用“数据”需要按照引用格式在参考文献或适当的位置标注数据来源;(3)增值服务用户或以任何形式散发和传播(包括通过计算机服务器)“数据”的用户需要与《全球变化数据学报》(中英文)编辑部签署书面协议,获得许可;(4)摘取“数据”中的部分记录创作新数据的作者需要遵循10%引用原则,即从本数据集中摘取的数据记录少于新数据集总记录量的10%,同时需要对摘取的数据记录标注数据来源[18]

数据和论文检索系统

DOIGCdataPRDCIGEOSSChinaGEOCSCD

 

 

3.2  验证点判读

验证点判读是以参考数据为基础,运用地学和遥感知识,按照待验证土地覆盖数据库的分类定义,对抽样阶段获得的验证点进行分类,并对判读的可靠性进行评估。

3.2.1  基本判读单元

根据抽样算法[21],每个抽样“点”实际代表一个30 m´30 m的像元。实际判读时,需要根据参考数据放大与缩小,因此基本判读单元的边界应该明确定义:是以抽样“点”为中心,以边长为30 m的正方形(图2)。但是,为了更好地判读基本单元,需要参考更大空间的信息。本文“基本判读单元”与“验证点”实际含义相同。

说明: 说明: t-2

2  基本判读单元

2  验证点土地覆盖类型分布

LCType

覆盖类型

样点数

10

耕地

24

20

森林

127

30

草地

331

40

灌木

116

50

湿地

2

60

水体

10

80

人造覆盖

1

90

裸地

171

100

永久冰雪

19

合计

 

801

 

3.2.2  参考数据

由于本案是世界海拔最高地区,有一定的永久冰雪分布,其验证点判读需要最热月的信息。因此,本文使用的参考数据主要是GoogleEarth平台的历史时期卫星遥感数据。参考数据的时间以2010年为基础,但是可以借鉴地学知识扩大时间范围。

3.2.3  基本判读元素及其在世界屋脊区的特点

在利用GoogleEarth卫星遥感数据判读验证点时,可以10个基本判读要素(表3)为基础,并综合运用该地区相关地学知识进行判读。在这10个基本判读要素中,前7个是早期模拟遥感数据判读常用要素[23],后3个是GoogleEarth卫星遥感数据新增的元素。结合世界屋脊区,本地区判读有如下特点。

植被在真彩色影像中的颜色:与世界大部分地区相比,本区最大特点是气温低,生长季短,而且在短暂的生长季云雾多,高质量遥感影像少。这导致植被在主要参考数据上并非总是典型的绿色。植被的判读更多依赖纹理、形状、阴影等元素。

时间序列信息:多个季节的参考数据有助于任何验证点判读,而对冰川验证点的判读是不可或缺的。很多高海拔地区被冰雪覆盖,但是只要在夏季出现一次“没有冰雪”,就可以一票否决。

空间地带性信息:验证点的与周边的“位置”关系可以辅助判读,但是一般指局部的依赖性。表3中增加“空间地带性信息”旨在扩大空间参考范围。在GoogleEarth环境下,有时仅靠验证点局部信息难以判读,但是在同一景(相同时间)数据上,成像条件相似,像元之间是可以相互比较的。把验证点局部放在全景下,可以更可靠地判断这个基本判读单元在某个水平地带或者垂直地带上的代表性。

3.2.4  判读可靠性、样地质量、与判读分类

判读可靠性是指判读人员在综合运用参考数据和地学知识以后对特定验证点判读可靠程度的主观判断。其原因既可能是客观的(参考数据质量差),也可能是主观的(判读员对该地区不了解)。对任意样点判读的可靠性(对应样点质量)可分为3种,各种质量样点有不同分类结果。

3  基于Google Earth的验证点判读可以参考的10个要素

要素

要素特征:以世界屋脊区(RoTW)为例

1.形状

判读对象的外轮廓。某些类别可能仅仅靠形状即可判读。

2.大小

对象的尺寸。基本判读单元可作为参照尺寸。

3.模式

对象之间空间关系。属于重要的地学知识,但是利用计算机分类时使用较少。

4.阴影

阴影有多种,有些妨碍判读,有些导致误判,有些辅助判读。

5.色调

对象的亮度和颜色。在世界屋脊区,参照数据的植被通常不是绿色。

6.纹理

对象色调以某种模式重复出现的现象。如林、灌、草冠层的颗粒感差异。

7.位置

对象所处的位置,对应一种特定的生态环境。如“湿地”是作为“对象”分类的。

8.时间序列

多年、多季节数据通常有助于判读,有时不可或缺。

9.空间序列

在一个整体的水平地带或垂直地带中,可以更准确地判读局部。

10.海拔

海拔决定了验证点所处的关键生态带:林线以下、林线与雪线之间、雪线以上。

 

高质量样点:可以明确判定只属于一个土地覆盖类型。高质量样点满足4个特征:时间有效;空间分辨率较高;光谱清晰;优势分类明显。

中质量样点:不能确定是一个类型,但是可以确定属于二个类型之一。例如自然地带性连续过渡区,人类活动两个类别交错区。

低质量样点:因为参考数据各种数据质量问题,或者判读员知识欠缺,无法判读验证点类型。

根据判读可靠性,高质量验证点全部参与分类精度评估;中质量验证点全部参与分类精度评估,但是其两个类型的选择决定了分类精度评估的区间;低质量验证点不参与分类精度评估。

4  验证点判读结果

4.1  验证点可靠性

根据以上判读标准,在801个样点中,高质量样点479个,占59.80%;中质量样点246个,占30.71%;低质量样点76个,占9.49%。剔除低质量样点后,用其余725个样点(占总样点的91.51%)对分类精度进行评估。样点质量分布如图3。低质量的判读样点主要分布在西部和北部边缘。这可能跟这些地区经济活动较少,GoogleEarth 存档的高质量遥感较少有关。

4.2  基于可靠验证点的Globeland30 (2010)分类精度评估

“中质量验证点”可能有两种分类结果:只认定第一种分类是“正确”;认定两种分类都“正确”。这两种假设分别对应分类精度评估的两个结果:“最低分类精度”和“最高分类精度”。

1)最低分类精度。如果只认定“中质量验证点”的“第一个可能分类(Class=1)”,则可以形成混淆矩阵(表3),验证点判读分类与Globeland30 (2010)的一致性如图4。根据这一标准,总分类精度为71.72%Kappa系数0.62。由于舍弃了“中质量验证点”的“第二个可能分类(Class=2)”,因此可以说Globeland30 (2010)在本区的总体精度在71.72%以上。在分类精度中,农田(LCType=10)的生产者精度只有37.04%,但是用户精度高达86.96%,说明农田存在严重的漏分问题。

2)最高分类精度。如果认定“中质量验证点”的“两个可能分类(Class=1 Class=2)”都“正确”,则可以形成混淆矩阵(表4)。根据这一标准,总分类精度83.86%Kappa系数0.7811。同理,由于放松了“中质量验证点”的判读标准,因此Globeland30 (2010)在本区的总体精度在最高不会超过83.86%。其中农田(LCType =10)的生产者精度只有43.75%,但是用户精度高达91.30%,说明存在严重的“漏分”问题。

 

说明: 说明: t-3

 

3  验证点可靠性空间分布

说明: 说明: t-4

 

4  验证点判读与Gloneland30 (2010)一致性

5  讨论

1)世界屋脊区Globeland30 (2010)的主要分类错误。从表2、表3和表4可知,在24个“农田(LCType=10)”验证点中,23个为有效验证点。其中20个(表321个(表4)已经被基于参考数据的判读证实,具有较高的用户精度(86.96%-91.30%)。但是,根据参考数据判读得到的“农田(LCType=10)”,在Globeland30 (2010)中却很容易被错分为“草地(LCType=30)”:表4中,54个“农田(LCType=10)”验证点,17个被错分为“草地(LCType=30)”;表5中,48个“农田(LCType=10)”验证点,14个被错分为“草地(LCType=30)”。

2Globeland30 (2010)农田漏分的空间分布。图5显示农田验证点判读一致性的空间特征。受海拔高度限制,农田主要分布在南部和东部。其中东南部为横断山脉,地形破碎,小块农田与小块草地、林灌交错分布,造成一个分类错误集中区。其余分类错误零星分布,包括西部干旱区大块的休闲农田(图6)。

4  世界屋脊区验证点判读混淆矩阵(最低精度)

 

 

Reference Dataset; Confidence=1 or 2; Class=1 (Primary)

Sum

User’s (%)

LCType

10

20

30

40

50

60

70

80

90

100

GlobeLand30

10

20

1

0

1

0

0

0

1

0

0

23

86.96

20

6

88

14

13

0

0

0

0

2

0

123

71.54

30

17

11

226

26

0

1

0

0

14

5

300

75.33

40

6

5

23

70

0

1

0

0

0

0

105

66.67

50

0

0

1

0

1

0

0

0

0

0

2

50

60

1

0

0

0

0

8

0

0

0

0

9

88.89

70

0

0

0

0

0

0

0

0

0

0

0

-

80

0

0

0

0

0

0

0

1

0

0

1

100

90

4

1

43

2

0

0

0

0

91

2

143

63.64

100

0

0

0

2

0

0

0

0

2

15

19

78.95

 

Sum

54

106

307

114

1

10

0

2

109

22

  520

 

 

Producer¢s%

37.04

83.02

73.62

61.40

100

80

NA

50

83.49

68.18

 

  725

Pa=总精度=520/725=71.72%;   Kappa = (Pa-Pe)/(1-Pe)= 0.620,1

 

5  世界屋脊区验证点判读混淆矩阵(最高精度)

 

 

Reference Dataset; Confidence=1 or 2; Class=1 (Primary) or 2 (Secondary)

Sum

User’s (%)

LCType

10

20

30

40

50

60

70

80

90

100

GlobeLand30

10

21

1

0

1

0

0

0

0

0

0

23

91.30

20

5

98

14

4

0

0

0

0

2

0

123

79.67

30

14

10

266

4

0

0

0

0

2

4

300

88.67

40

4

2

9

90

0

0

0

0

0

0

105

85.71

50

0

0

1

0

1

0

0

0

0

0

2

50

60

0

0

0

0

0

9

0

0

0

0

9

100

70

0

0

0

0

0

0

0

0

0

0

0

-

80

0

0

0

0

0

0

0

1

0

0

1

100

90

4

1

31

2

0

0

0

0

105

0

143

73.43

100

0

0

0

2

0

0

0

0

0

17

19

89.47

 

Sum

48

112

321

103

1

9

0

1

109

21

  608

 

 

Producers %

43.75

87.50

82.87

87.38

100

100

-

100

96.33

80.95

 

  725

总精度=608/725 = 83.86 %Kappa = (Pa-Pe)/(1-Pe)=0.781,1

 

3)验证对分类改进的建议:本案农田样点的分类精度最低(漏分),其中西部干旱区大面积农田的漏分,是因为休闲期农田光谱特征与裸地和稀疏草地相似。人工判读时可以参照地学知识可靠地判读为农田。建议对干旱区农田开发专门算法,充分利用纹理等信息,必要时增加人工知识后处理。

 

说明: 说明: t-5

5  农田验证点及其判读一致性空间分布

6  西部干旱河谷区被漏分农田

 

6  结论

Google Earth遥感影像为参考数据对世界屋脊区Globeland30 (2010)有效验证时,有效验证点占90.51%,可以参与分类精度评估。未来可以考虑补充其他参考数据源,以保障与验证点抽样时的统计假设的一致性。

基于有效验证点对世界屋脊区Globeland30 (2010)分类精度表明,总精度为(最低)71.72%-(最高)83.86%Kappa介于(最低)0.62-(最高)0.78

未来提高分类精度的重点是农田,包括西部干旱河谷大面积农田的分类,和东南部横断山脉破碎地貌环境下小块农田与草地镶嵌混合的分类。

 

作者分工:王正兴对验证数据集开发做了总体设计,完成中国部分验证点判读,撰写了数据论文初稿;刘闯指导了总体设计,提供了研究地区边界数据,修改了初稿;Win Naing Tun完成了缅甸部分验证点判读。

 

致谢:感谢中国国家地理信息中心陈军教授团队提供Globeland30 (2010)数据以及验证技术培训。感谢韩刚博士对使用Globeland30在线验证系统的指导。

参考文献

[1]       Belward, A. S., Estes, J. E., Kline, K. D. The IGBP-DIS Global 1-Km land-Cover Data Set DISCover: A Project Overview [J]. Photogrammetric Engineering & Remote Sensing, 1999, 65(9): 1013-1020.

[2]       Scepan, J. Thematic validation of high-resolution global land-cover data sets [J]. Photogrammetric engineering and remote sensing, 1999, 65(9): 1051-1060.

[3]       McCallum, I., Obersteiner, M., Nilsson, S., et al. A spatial comparison of four satellite derived 1 km global land cover datasets [J]. International Journal of Applied Earth Observation and Geoinformation2006, 8: 246–255.

[4]       Herold, M., Mayaux, P., Woodcock, C. E., et al. Some challenges in global land cover mapping: an assessment of agreement and accuracy in existing 1 km datasets [J]. Remote Sensing of Environment, 2008, 112(5): 2538-2556.

[5]       吴文斌, 杨鹏, 张莉等. 四类全球土地覆盖数据在中国区域的精度评价[J]. 农业工程学报, 2009, 25 (12): 167-173.

[6]       ESA, European Space Agency. GlobCover products description and validation report [OL]. ftp://uranus.esrin.esa.int/pub/globcover_v2/global/GLOBCOVER_Products_Description_Validation_Report_I2.1.pdf, 2008.

[7]       ESA, European Space Agency. GlobCover 2009 products description and validation report [OL]. ftp://due.esrin.esa.int/globcover/LandCover2009/GlobCover2009_Validation_Report_2.2.pdf, 2011.

[8]       Bontemps, S., Defourny, P., Bogaert, E. V., et al. GlobCover 2009-Products description and validation report [R]. 2011.

[9]       Wulder, M. A., White, J. C., Goward, S. N., et al. Landsat continuity: issues and opportunities for land cover monitoring [J]. Remote Sensing of Environment, 2008, 112(3): 955-969.

[10]    Hansen, M. C., Potapov, P. V., Moore, R., et al. High-resolution global maps of 21st-century forest cover change [J]. Science, 2014, 342(6187): 850-853.

[11]    陈军, 陈晋, 廖安平等. 全球30 m地表覆盖遥感制图的总体技术[J]. 测绘学报, 2014(6): 551-557.

[12]    Chen, J., Chen, J., Liao, A., et al. Global land cover mapping at 30 m resolution: A POK-based operational approach [J]. ISPRS Journal of Photogrammetry & Remote Sensing, 2015, 103: 7-27. DOI: 10.1016/j.isp rsjprs.2014.09.002.

[13]    Chen, J., Ban, Y., Li, S. China: Open access to Earth land-cover map [J]. Nature2014514(7523): 434.

[14]    Mcroberts, R. E. Satellite image-based maps: scientific inference or pretty pictures? [J]. Remote Sensing of Environment, 2011, 115(2), 715-724.

[15]    Chen, J., Cao, X., Peng, S., et al. Analysis and applications of globeland30: a review [J]. ISPRS International Journal of Geo-Information, 2017, 6(8): 230. DOI: 10.3390/ijgi6080230.

[16]    胡菊, 陈军, 彭舒. Globeland30地表覆盖研究的热点分析[J]. 遥感信息, 2018(4): 1-7.

[17]    王正兴, 刘闯. 基于Google Earth的世界屋脊生态地理区GlobeLand30 (2010)验证点数据[DB/OL].全球变化科学研究数据出版系统, 2018. DOI: 10.3974/geodb.2018.02.05.V1.

[18]    全球变化科学研究数据出版系统. 全球变化科学研究数据共享政策[OL]. DOI: 10.3974/dp.policy.2014.052017年更新)

[19]    Olofsson, P., Foody, G. M., Herold, M., et al. Good practices for estimating area and assessing accuracy of land change [J]. Remote Sensing of Environment, 2014, 148(5): 42-57.

[20]    刘闯, 石瑞香, 陈文波.世界屋脊生态地理区区域界线地理信息系统数据集 (ROTWBND), 全球变化科学研究数据出版系统, 2014. DOI: 10.3974/geodb.2014.01.01.V1.

[21]    陈斐, 陈军, 武昊,. 基于景观形状指数的地表覆盖检验样本自适应抽样方法[J]. 中国科学:地球科学, 2016, 46(11: 1413.

[22]    Globeland30在线验证系统[OL]. http://glcval.geo-compass.com/ [访问时间:2019-06-01]

[23]    Lillesand, T. M., Kiefer, R. W. Remote Sensing and Image Interpretation [M]. New York: John Wiley & Sons, 1979.